谷歌的项目Astra、Veo和Gemini升级战斗AI进展

Updated:2024-11-28 11:08:13

这是谷歌对OpenAI的回应。

一个通用AI，一个可以真正日常使用的AI，如果现在不是这样，召开新闻发布会将是尴尬的。

在5月15日清晨，年度“科技界春晚”谷歌I/O开发者大会正式开始。在110分钟的主旨演讲中，人工智能被提及了多少次？谷歌已经统计出来了：

是的，AI每分钟都在被讨论。

生成AI的竞争最近达到了一个新高潮，这次I/O大会的内容自然围绕着人工智能展开。

“一年前在这个舞台上，我们首次分享了对原生多模态大型模型Gemini的计划。这标志着新一代I/O的到来，”谷歌首席执行官Sundar Pichai说。“今天，我们希望每个人都能受益于Gemini的技术。这些突破性的功能将渗透到搜索、图像、生产力工具、Android系统和许多其他方面。”

目前，1.5 Pro和1.5 Flash已对公众预览，提供了在谷歌AI工作室和Vertex AI中的100万token上下文窗口。现在，1.5 Pro还为通过等待名单的API开发者和谷歌云客户提供200万token上下文窗口。

此外，Gemini Nano已从纯文本输入扩展到图像输入。今年晚些时候，从Pixel开始，谷歌将推出多模态Gemini Nano。这意味着移动用户不仅可以处理文本输入，还可以理解更多上下文信息，如视觉、声音和口语。

Gemini家族迎来了新成员：Gemini 1.5 Flash

新的1.5 Flash在速度和效率上进行了优化。

新一代开源大型模型Gemma 2

今天，谷歌还发布了一系列更新，开源大型模型Gemma – Gemma 2来了。

如介绍所述，Gemma 2采用了一种新架构，旨在实现突破性的性能和效率，新的开源模型参数为27B。

当谈到长视频时，Veo可以生成60秒甚至更长的视频。它可以通过单个提示或提供一系列提示来讲述一个故事。这是视频生成模型在影视制作中应用的关键。

Veo基于谷歌在视觉内容生成方面的工作，包括生成查询网络（GQN）、DVD-GAN、图像到视频、Phenaki、WALT、VideoPoet、Lumiere等。

Updated:2024-11-29 22:36:38

Updated:2024-11-29 20:56:44